![]() 聲訊場景二維或三維高階保真立體音響呈現所含聲音客體相對位置之改變方法和裝置
专利摘要:
高階保真立體音響HOA是空間聲場的呈現,方便以二維和三維的優異空間解像度捕獲、操持、記錄、傳輸和回放複雜聲訊場景。聲場係利用Fourier-Bessel串聯,接近和圍繞空間上的參照點。本發明使用空間翹曲(12,13,14;16),以修飾所捕集和生成高階保真立體音響呈現的聲場資訊之空間內容和/或複製。二維和三維聲場適用不同的翹曲特性。翹曲是在空間界域內進行,不需進行場景分析或分解。指定位階的輸入HOA係數,解碼至正規定位(虛擬)擴音器的權值或輸入訊號。 公开号:TW201301911A 申请号:TW101122126 申请日:2012-06-21 公开日:2013-01-01 发明作者:Peter Jax;Johann-Markus Batke 申请人:Thomson Licensing; IPC主号:H04S5-00
专利说明:
聲訊場景二維或三維高階保真立體音響呈現所含聲音客體相對位置之改變方法和裝置 本發明係關於聲訊場景二維或三維高階保真立體音響呈現所含聲音客體相對位置之改變方法和裝置。 高階保真立體音響(HOA)是空間聲場之呈現,方便以二維和三維的優異空間解像度捕獲、操持、記錄、傳輸和回放複雜聲訊場景。聲場係利用Fourier-Bessel串聯,接近和圍繞空間上的參照點。 目前只有少數技術可供操持以HOA技術捕獲聲訊場景空間配置。原則上有二種方式: (A)把聲訊場景分解成分開之聲音客體和關聯位置資訊,例如經由DirAC,並以所操持位置參數組成新場景。其缺點是注定精緻而易錯的場景分解。 (B)HOA呈現的內容可經由HOA向量的線性轉換加以修飾。於此只倡議前/後方向的轉軸、鏡映和強調。凡此等已知以轉緩為基礎的修飾技術,均保持固定客體在場景內之相對定位。 為操持或修飾場景內容,已倡議空間翹曲,包含HOA聲場的轉軸和鏡映,以及修飾特殊方向之優勢,見:G.J.Barton,M.A.Gerzon,"Ambisonic Decoders for HDTV",AES Convention,1992;J.Daniel,"Représentation de champs acoustiques,application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia",PhD thesis,Université de Paris 6,2001,Paris,France;M.Chapman,Ph.Cotterell,"Towards a Comprehensive Account of Valid Ambisonic Transformations",Ambisonics Symposium,2009,Graz,Austria. 此性能為基本性,因為得以處置複雜聲場資訊,包括從不同的聲源同時貢獻。 空間不變性 按定義(除非翹曲函數為梯度1或-1之完美線性),空間翹曲轉換並非空間不變性。意即對原先位在半球體上不同位置之聲音客體,操作行為即有所不同。以數學術語而言,此性能是翹曲函數f(Φ)非線性的結果,即:f(Φ+α)≠f(Φ)+α (30)對至少某些任意角度α]0...2π[。 可逆性 典型上,轉換矩陣T無法單純藉數學反演而逆轉。一明顯理由是,T通常並非方形。即使是方形空間翹曲矩陣亦非可逆,因為典型上從低階係數散佈到高階係數之資訊,會有損失(比較下節如何設定HOA位階以及上述實施例中之例),而在操作中損失之資訊意即操作無法逆轉。 所以,必須出另一方式,可至少大約逆轉空間翹曲操作。逆向翹曲轉換Trev可經由翹曲函數f(.)之逆向函數f rev(.)設計,其中:f rev(f(Φ))=Φ (31)視HOA位階之選擇,此項處理近似逆向轉換。 如何設定HOA位階 設計空間翹曲轉換時,必須考量的重要面向是HOA位階。雖然通常情況下,輸入向量Ain的位階Nin被外部拘限物的預先界定,但輸出向量Aout的位階Nout和實際非線性翹曲操作的「內」位階Nwarp,多多少少均可任意指定。然而,二位階Nin和Nwarp均必須小心選擇,如後述。 「內」位階Nwarp:「內」位階Nwarp界定上述多步驟空間翹曲處理中實際解碼、翹曲和編碼步驟之準確性。典型上,位階Nwarp需比輸入位階Nin和輸出位階Nout二者大得多。此項要求之理由是,不然會產生畸變和假象,因為翹曲操作一般為非線性操作。為說明此事實,第3圖顯示對第2圖舉列所用同樣翹曲函數之完全翹曲矩陣例。第3a,3c,3e圖分別表示翹曲函數f 1(Φ),f 2(Φ),f 3(Φ)。第3b,3d,3f圖分別表示翹曲矩陣T1(dB),T2(dB),T3(dB)。為說明起見,此等翹曲矩陣未經截區以決定特殊輸入位階Nin或輸出位階Nout之翹曲矩陣。第3b,3d,3f圖改以定中方格之虛線表示最後所得,即截區轉換矩陣之目標大小Nout×Nin。如此一來,非線性畸變對翹曲矩陣之衝擊,即明顯可見。在此例中,目標位階以任意設定Nin=30於和Nout=100。 基本挑戰可見第3b圖:顯然由於空間界域內之非線性處理,翹曲矩陣內之係數分佈於主要對角線周圍,離矩陣中心愈遠愈多。離中心很遠距離處,例如約|y|≧90(y係垂直軸線),係數分佈達全矩陣的邊界,看似「跳開」。如此產生特殊類型的畸變,延伸到翹曲矩陣之大部份。在實驗評估中,已觀察到一旦位於矩陣目標面積內的畸變生成物(圖內以虛線方格標示),此等畸變會重大損及轉換效益。 對於第3b圖之第一實施例,一切沒問題,因為處理之「內」位階已選擇Nwarp=200,遠高於輸出位階Nout=100。畸變區域不延伸到虛線方格。 另一腳本如第3d圖所示。內位階已特定為等於輸出位階,即Nwarp=Nout=100。此圖顯示畸變延伸標度與內位階呈線性。結果是轉換的輸出位階之高階係數,受到畸變生成物之污染。如此標度性能之優點是,似乎可藉增加內位階Nwarp,而避免此種非線性畸變。 第3f圖表示更積極性之翹曲函數,係數較大,α=0.7。因為是更積極性翹曲函數,畸變如今延伸到目標矩陣面積,即使內位階Nwarp=200。對此情況,正如前段所推論,內位階應更增加,即使更為過度措施。為此翹曲函數之實驗顯示,提高內位階至例如N=400,可除去此等非線性畸變。 總之,翹曲函數愈積極性,內位階Nwarp應愈高。尚無最小內位階之正式推衍。然而,若有疑問,「內」位階之過度措施有助益,因為非線性效應係隨完全翹曲矩陣之大小,呈線性標度。原則上,「內」位階可任意高度。尤其是,若要推衍單一步驟轉換矩陣,對最後翹曲操作之複雜性,不會扮演任何角色。 輸出位階Nout:為特定翹曲轉換之輸出位階Nout,需考慮以下二面向:-一般而言,輸出位階必須大於輸入位階Nin,以便保持分散到不同位階係數之全部資訊。實際所需大小,也視翹曲函數之特性而定。正如拇指原則,翹曲函數f(Φ)的「寬帶」寬少,所需輸出位階愈小。在某些情況下呈現,翹曲函數可經低通過濾,以限制所需輸出位階Nout。第3b圖為其中一例,於此特殊翹曲函數,輸出位階Nout=100,如虛線方格所示,是以防止資訊損失。若輸出位階大為降低,例如至Nout=50,轉換矩陣之某些非零係數會排除,預期有相對應資料損失。 -在某些情況下,輸出HOA係數僅能用於處理或能夠處置有限位階的機件。例如,目標可為擴音器限量之擴音器設置。在如此應用中,輸出位階應按照目標系統容量特定。若Nout夠小,翹曲轉換可有效減少空間資訊。 內位階Nwarp減到輸出位階Nout,只要降低高階係數即可。相當於對HOA輸出向量應用長方形視窗。另外可應用更精巧之帶寬減少技術,如上述M.A.Poletti論文或上述J.Daniel論文所述。因此,輕易比長方形窗限損失更多資訊,但可完成優異的方向性形態。 本發明可用於聲頻處理鏈之不同部份,例如記錄、後製作、傳輸、回放。 本發明所要解決的問題是,方便HOA基礎的聲訊場景內所含聲音客體相對位置之改變,而無需分析場景之組成。此問題是利用申請專利範圍第1項揭示之方法解決。利用此方法之裝置則如申請專利範圍第2項所揭示。 本發明使用空間翹曲,以修飾已捕獲或製成高階保真立體音響(Ambisonics)的聲場資訊之空間內容和/或複製。HOA界域內之空間翹曲呈現多步驟解決方案,或在計算更有效率之單步驟線性矩陣乘法。二維和三維聲場適用不同的翹曲特性。翹曲是在空間界域內進行,不需進行場景分析或分解。指定位階的輸入HOA係數,解碼成正規定位(虛擬)擴音器的權值或輸入訊號。 本發明空間翹曲處理有若干優點:-甚具彈性,因在參數化時有若干自由度;-可以非常有效率方式實施,例如具有比較低的複雜性;-不需任何場景分析或分解。 原則上,本發明方法適於改變聲訊場景二維或三維高階保真立體音響HOA呈現所含聲音客體之相對位置,其中維度Oin的輸入向量Ain決定輸入訊號之傅立葉(Fourier)串聯係數,而維度Oout的輸出向量Aout決定相對應改變的輸出訊號之傅立葉串聯係數,該方法包含步驟為:-使用模態矩陣Ψ1之反逆Ψ1 -1,藉計算sin=Ψ1 -1Ain,把輸入HOA係數之該輸入向量Ain解碼,成為正規定位擴音器位置在空間界域之輸入訊號sin;-藉計算Aout=Ψ2 sin,在空間界域內把該輸入訊號sin翹曲和編碼,成為所適應輸出HOA係數之該輸出向量Aout,其中模態矩陣Ψ2的模態向量係按照翹曲函數f(Φ)修飾,藉此把原有擴音器位置的角度,逐一映射成在該輸出向量Aout內的目標擴音器位置之目標角度。 原則上,本發明裝置適於改變聲訊場景二維或三維高階保真立體音響HOA呈現所含聲音客體之相對位置,其中維度Oin的輸入向量Ain決定輸入訊號之傅立葉串聯係數,而維度Oout的輸出向量Aout決定相對應改變的輸出訊號之傅立葉串聯係數,該裝置包含:-機構,適於使用模態矩陣Ψ1之反逆Ψ1 -1,藉計算sin=Ψ1 -1Ain,把輸入HOA係數之該輸入向量Ain解碼,成為正規定位擴音器位置在空間界域內之輸入訊號sin;-機構,適於藉計算Aout=Ψ2 sin,在空間界域內把該輸入訊號sin翹曲和編碼,成為所適應輸出HOA係數之該輸出向量Aout,其中模態矩陣Ψ2的模態向量係按照翹曲函數f(Φ)修飾,藉此把原有擴音器位置角度,逐一映射成在該輸出向量Aout內的目標擴音器位置之目標角度。 本發明有益之其他具體例,載於申請專利範圍個別附屬項內。 茲參照附圖說明本發明具體例。 終究為理解起見,就二維設置說明本發明應用於空間翹曲,HOA呈現係有賴「圓形」諧波,並假設所呈現之聲場只包括「平面」聲波。然後,說明延伸到三維情況,係基於「球形」諧波。 註釋 在保真立體音響理論中,在空間內特殊點和周圍的聲場,係利用截斷Fourier-Bessel串聯加以說明。一般而言,假設參照點是在所選定座標系統的原點。 就使用球形座標的三維應用而言,對具有全部界定指數n=0,1,...,N和m=-n,...,n的係數之傅立葉串聯,說明聲場在方位角Φ、傾角θ以及與原點的距離r之壓力: 其中k為波數,是Fourier-Bessel串聯的核心函數,與θ和Φ所謂定方向之球形諧波嚴格相關。為方便起見,終究HOA係數使用定義。對於特定位階N,Fourier-Bessel串聯內之係數數目為O=(N+1)2。 對於使用圓形座標的二維度應用,核心函數只視方位角Φ而定。m≠n的全部係數均為零值,可略而不計。所以HOA係數之數目減到只有O=2N+1。再者,傾角θ=π/2固定。須知對於二維情況,以及聲場在圓形上的完美均勻分配,即,在Ψ內之模態向量,係與公知分立傅立葉轉換DFT的核心函數一致。 核心函數的定義,存在不同的習見,也會導致保真立體音響係數的不同定義。然而,準確定義對於本案所述空間翹曲技術的基本說明書和特徵,不扮演任務。 HOA「訊號」包括每一瞬時間的保真立體音響係數之向量A。對於二維(即圓形)設定,典型組成和係數向量之定位階為: 對於三維球形設定,係數之通常定位階則不同: HOA呈現的編碼行為是線性方式,所以對複數的分開聲音客體之HOA係數,可以合計,以衍生所得聲場的HOA係數。 平面編碼 複數聲音客體從若干方向的平面編碼,可以向量代數學逕直完成。「編碼」意只從個別聲音客體(i=0...M-1)在瞬時l的壓力貢獻資訊si(k,l),加上聲波到達座標系統原點所由方向Φi和θi,衍生在同樣瞬時l和波數k的HOA係數向量A(k,l)之步驟:A(k,l)=Ψ.s(k,l) (4) 假設二維設置和HOA向量組成如式(2)所界定,模態矩陣Ψ即由模態向量構成,。Ψ的第i直行含有按照第i聲音客體的方向Φi之模態向量:Ψ=(Y(Φ0),Y(Φ1),...,Y(ΦM-1)) (5) 如上所界定,HOA呈現之編碼,可解釋為空間頻率轉換,因為輸入訊號(聲音客體)在空間分佈。此項利矩陣Ψ轉換可逆向,不會有資訊損失,只要聲音客體數目和HOA係數數目一致,即M=0,且方向Φi合理繞單位圓形分散。在數學術語上,可逆性條件是,模態矩陣Ψ必須方形(O×O),而且可以反轉。 平面解碼 利用解碼,衍生真實或虛擬擴音器的驅動訊號,必須應用以便準確回放所需聲場,正如輸入HOA係數所述。如此解碼視擴音器數目M和位置而定。下列三種重要情況必須加以分辨(註:此等情況係以經由「擴音器數目」界定的意識加以簡化,假設係以幾何學上合理之方式設置。更準確而言,定義應經由目標擴音器設置的模態矩陣評等為之。)在下述為例之解碼規則中,應用模態匹配解碼原理,惟其他解碼原理亦可利用,對三種腳本會導致不同的解碼規則。 高於確定情況:擴音器數目高於HOA係數數目,即M>0。在此情況下,對解碼問題不存在獨一解決方案,而是存在可接受的解決方案範圍,位於全部潛在解決方案的M維度空間之M-O維度副空間內。典型上使用特定擴音器設置的模態矩陣Ψ之擬似反逆,以確定擴音器訊號s:s=ψT(ψψT)-1 (6)此項解決方案輸送具有最小總回放功率sTs之擴音器訊號(例如參見L.L.Scharf著《統計學之訊號處理、檢測、估計和時間串聯分析》,美國麻州里汀市Addison-Wesley出版公司,1990年)。為擴音器之正規設置(在二維情況下容易達成),矩陣運算(ψψT)-1產生同等矩陣,而式(6)之解碼規則簡化成s=ψTA。 確定情況:擴音器數目等於HOA係數數目。對於解碼問題存在獨一的解決方案,以模態矩陣Ψ的反逆Ψ-1界定:s=ψ-1A (7) 低於確定情況:擴音器數目M少於HOA係數數目O。因此,解碼聲場的數學問題決定過低,無獨一的準確解決方案存在。必須改用數值最適化以決定可能最佳匹配所需聲場之擴音器訊號。可應用正規化以推衍穩定之解決方案,例如利用下式:s=ψT(ψψT+λI)-1A (8)其中I指同等矩陣,而純量因數λ界定正規化量。舉例言之,λ可設定於特定值ΨΨT之平均。所得光束形態可為次最佳,因一般而言,以此策略所得光束形態過份方向性,有許多聲音資訊呈現過低。 就上述全部解碼器而言,是假設擴音器發射平面波。真實世界的擴音器有不同的回放特徵,解碼規則需注意該特徵。 基本翹曲 本發明空間翹曲之原理如第1a圖所示。翹曲是在空間界域內進行。所以,首先,在步驟/階段12,把位階Nin和維度Oin的輸入HOA係數Ain,解碼成權值或輸入訊號sin,以供正規定位(虛擬)之擴音器。為此項解碼步驟,宜應用確定解碼器,即其虛擬擴音器數目Owarp等於或大於HOA係數Oin者。後一種情況(即擴音器多於HOA係數),利用在步驟/階段11為高階添加零係數,即可容易延伸HOA係數向量Ain之位階或維度。目標向量sin之維度終究以Owarp標示。 擴音器訊號之虛擬位置應正規,例如對二維情況,Φi=i˙2π/Owarp。因而保證模態矩陣Ψ1經充分調理,以確定解碼矩陣。其次,虛擬擴音器之位置,係按照所需翹曲特性,在「翹曲」處理中修飾。翹曲處理是在步驟/階段14,使用模態矩陣Ψ2,兼編碼目標向量sin(或分別為sout),得維度Owarp或是在下述繼續處理步驟後,得維度Oout之翹曲HOA係數的向量Aout。原則上,翹曲特性可全然界定,即原始角度對目標角度1比1映射,即為各原始角度Φi=0...2π和可能θi=0...2π,界定目標角度,因而對於二維情況:Φout=f(Φin) (10)對於三維情況:Φout=f Φ(Φin,θin) (11) θout=f θ(Φin,θin) (12) 為明瞭起見,此(虛擬)再定向可與實際移動擴音器到新位置做比較。此程序會產生之一問題是,相鄰擴音器之間在某一角度的距離,可按照翹曲函數f(Φ)梯度改變(此終究係就二維情況加以說明):若f(Φ)梯度大於一,則比原有聲場為少的「擴音器」,即佔有翹曲聲場內的同樣角位空間,反之亦然。易言之,擴音器的密度Ds遵守: 此即意味空間翹曲,修飾了聽者周圍的聲音平衡。擴音器密度增加之區域,即,Ds(Φ)>1,會變成更具優勢,而Ds(Φ)<1之區域變得更無優勢。 做為選項,可視應用上的需要,擴音器密度之上述修飾,可在加權步驟/階段13,對虛擬擴音器輸出訊號sin應用加權函數g(Φ)對抗,得訊號sout。原則上,可特定任何加權函數g(Φ)。特別有益的一變化例,已在實驗上確定與翹曲函數f(Φ)之導數成比例: 藉此特殊加權函數,假設適當高度內位階和輸出位階(參見後述如何設定HOA位階),則在特殊翹曲角度之翹曲函數f(Φ)幅度保持等於在原有角度Φ的原有翹曲函數。因而,獲得每一開口角度之均勻聲音平衡(幅度)。 除上述實施例加權函數外,可用其他加權函數,例如以便獲得每一開口角度之相等功率。 最後,在步驟/階段14,把加權虛擬擴音器訊號翹曲,再度以模態矩陣Ψ2進行編碼Ψ2 sout。按照翹曲函數f(Φ),Ψ2包括與Ψ1不同的模態向量。結果是Owarp維度HOA呈現翹曲聲場。若目標HOA呈現的位階或維度,低於編碼器Ψ2位階(見下節如何設定HOA位階),有些(即一部份)翹曲係數必須在步驟/階段15除去(剔除)。一般而言,此項剔除操作可藉窗限(windowing)操作說明:編碼向量Ψ2 sout乘以視窗向量w,後者包括應除去的最高位階零係數,此乘法可視為呈現進一步加權。以最簡單情況而言,可應用長方形視窗,惟更複雜的視窗亦可用,見M.A.Polletti〈水平全像聲音系統之統一理論〉第三節,刊於聲訊工程學會會刊48(12),第1155-1182頁,2000年,或可用「同相」(in-phase)或「最亣rE」視窗,見上述J.Daniel博士論文3.3.2節。 三維之翹曲函數 上述翹曲函數f(Φ)和關聯加權函數g(Φ),係二維情況。下述則延伸至三維情況,對二項函數均更為複雜,因為必須應用到更高維度和球形之幾何形狀。引進二種簡化腳本,均可利用一維翹曲函數f(Φ)或f(θ),以特定所需空間翹曲。 沿經度的空間翹曲,只以方位角Φ為函數,進行空間翹曲。此情形與上面介紹的二維情況很相似。翹曲函數可全然由下式界定: 因此,可一如二維情況,應用類似翹曲函數。空間翹曲對赤道上的聲音客體衝擊最大,而對兩極的聲音客體衝擊最小。 球體上(翹曲)聲音客體之密度,唯視方位角而定。所以對一定密度之加權函數為: 空間內特殊翹曲特性之自由定向,在應用翹曲和隨後反向轉動之前,藉(虛擬)轉動球體為宜。 在沿經度的空間翹曲中,只容許沿子午線的空間翹曲。翹曲函數之界定為: 此在球體上翹曲函數之重要特性為,雖然方位角度保持一定,二點在方位角方向之角度距離,會因傾角的修飾,而充分改變,理由是二子午線間之角度距離,於赤道最大,於兩極減消至零。加權函數必須顧及此事實。 二點A和B間的角度距離c,可由球形幾何學之餘弦規則決定,參見I.N.Bronstein、K.A.Semendjajew、G.Musiol、H.Mühlig的《數學手冊》(德國Harri出版社,梅茵河邊法蘭克福的屯市,第5版,2000年)之式(3.188c):cos c=cosθA cosθB+sinθA sinθB cosΦAB (20)其中ΦAB指二點A和B間的方位角度。關於二點在同樣傾角θ間之角度距離,此式可簡化成:c=cos-1[(cosθA)2+(sinθA)2 cosΦε] (21) 可應用此式,以導衍出空間內一點與相隔小小方位角度Φε的另一點間之角度距離。「小小」意指在實際應用上盡其方便之小,但非零,理論上限制數值Φε→0。如此角度距離在翹曲前後之比率,賦予聲音客體密度在Φ方向變化之因數: 最後,加權函數為在Φ方向和θ方向的二加權函數之乘積: 又,如前述腳本,空間內特殊翹曲特性之自由定向,宜利用轉動。 單一步驟處理 就第1a圖所介紹之步驟,即位階延伸、解碼、加權、翹曲加編碼,及剔除,基本上都是線性操作。所以,此操作序列可換成步驟/階段16內具有單一矩陣的輸入HOA係數之乘法,如第1b圖所示。略去延伸和剔除操作,則完全Owarp×Owarp轉換矩陣T決定為:T=diag(w)Ψ2 diag(g)Ψ1 -1 (24)其中diag(.)指對角線矩陣,其向量引數值做為主要對角線之成份,g為加權函數,w為視窗向量,以備上述剔除,即從二加權函數備在步驟/階段15進行剔除和係數剔除,式(24)內之視窗向量w只用於加權。在多步驟措施內之二種位階調適,即解碼器前導之位階延伸,和編碼後之HOA係數剔除,亦可藉除去相對應直行和/或橫行,而整合於轉換矩陣T內。因此,衍生維度Oout×Oin之矩陣,可直接應用於輸入HOA向量。然後,空間翹曲操作變成:Aout=T Ain (25) 好處是轉換矩陣T的維度從Owarp×Owarp有效減到Oout×Oin,按照第1b圖進行單一步驟處理所需計算上之複雜性,即為大為低於第1a圖所示多步驟策略,雖然單一步驟處理輸送完美一致的結果。尤其是可避免若多步驟處理以其中間訊號的低階Nwarp進行時可能引起的失真(詳見下述如何設定HOA位階)。 先前技術:轉軸和鏡映 聲場的轉軸和鏡映,可視為是空間翹曲之「簡單」副類。此等轉換之特殊特性是,不修飾聲音客體彼此間之相對位置。意即聲音客體已位在原有聲音感測內另一聲音客體右方例如30°者,仍會停留在轉軸聲音感測內同一聲音客體右邊30°。為了鏡映,只有符號改變,但角度距離保留相同。 聲場資訊轉軸和鏡映之演算和應用,業已開發並載於上述Barton/Gerzon和J.Daniel論文,和M.Noisternig、A.Sontacchi、Th.Musil、R.Höldrich撰〈三維保真立體音響為基礎之及耳聲音複製系統〉,AES第24屆多頻道聲訊國際會議論文集,加拿大Banff市,2003年,以及H.Pomberger、F.Zotter撰〈可撓性回放佈置之保真立體音響格式〉,第1屆保真立體音響研討會,奧地利Graz市,2009年。 此等措施係根據為轉軸矩陣之分析表達。例如,圓形聲場(二維情況)轉軸任意角度α,可以翹曲矩陣Tα乘法進行,其中只有係數副集合為非零: 正如此式所示,轉軸和/或鏡映操作用之全部翹曲矩陣具有特殊特性,只有同位階n的係數才會影響彼此。 所以,此等翹曲矩陣很少廣用,而輸出Nout可等於輸入位階Nin,不損失任何空間資訊。 許多有趣的應用,需聲場資訊之轉軸和鏡映。其一例為聲場經由具有頭上追蹤系統之頭掛聽筒。按照頭部轉動角度的插值HRTFs(頭部攸關之轉移功能),宜改用按照頭部位置之聲場預轉軸,並使用固定HRTFs供實際回放。此項處理已載於上述Noisternig/Sontacchi/Musil/Höldrich論文。 另一例載於上述Pomberger/Zotter論文,討論聲場資訊之編碼。可以拘限HOA向量對圓形(二維)或球體的特別部份記載之空間區域。由於拘限物之故,HOA向量有些部份會變成零。該論文促進的概念是,利用此冗餘減少性能,供聲場資訊之混合位階寫碼。因為只有在空間內很特殊區域才能得上述拘限物,一般需要轉軸操作,把傳輸的部份資訊,移至空間內所需區域。 實施例 第2圖說明二維(圓形)情況之空間翹曲例。翹曲函數已選擇: 類似分立時間全通過濾器之相位回應,有單一真值參數,參見M.Kappelan撰〈全通鏈之性能及其應用於非等距之光譜分析和合成〉,阿亨大學(RWTH)博士論文,德國阿亨市,1998年。翹曲函數如第2a圖所示。此特別翹曲函數f(Φ)已被選用,因其保證2π周期性翹曲函數,又容許以單一參數a修飾空間畸變量。 第2b圖所示相對應加權函數g(Φ),係為此特別翹曲函數之必然結果。 第2c圖表示7×25單一步驟轉換翹曲矩陣T。矩陣個別係數之對數絕對值,按照所附灰值表或陰影條碼,以灰值或陰影式表示。此例矩陣係為的輸入HOA位階和Nout=12的輸出位階而設計。需要較高輸出位階,以捕獲由低階係數轉換成高階係數所散佈之大多數資訊。若輸出位階再降低,翹曲操作之準確性會下降,因為完全翹曲矩陣的非零係數會被忽略(見下節如何設定HOA位階有詳細討論)。 此特別翹曲矩陣很有用之特性是,其大部份為零。如此,實施此操作時,得以節省許多計算上的功率,惟並非通則,單一步驟轉換矩陣之某些部位為零。 第2d和2e圖表示以某些平面波所製成電子束形態為例之翹曲特性。二者均係同樣七個輸入平面波的結果,即在Φ位置0,2/7π,4/7π,6/7π,8/7π,10/7π,12/7π,全部同樣偏角為一,顯示七種角度的偏角分佈,即下述高於確定的正規解碼操作所得向量s:s=Ψ-1 A (28)其中HOA向量A不是原有就是平面波集合之翹曲變化例。圓形外側之數學表示角度Φ。虛擬擴音器的數字(例如360),相當高出HOA參數的數字。來自前方向的平面波之偏角分佈或電子束形態,位在Φ=0。 第2d圖表示原有HOA呈現的偏角分佈。全部七種分佈形狀相同,特點為主葉片同寬。主葉片頂點位在原有七個聲音客體的角度Φ=(0,2/7π,...)處,正如預期。主葉片寬度相當於原有HOA向量的限制位階Nin=3。 第2e圖表示同樣聲音客體之偏角分佈,惟在進行翹曲操作之後。一般而言,客體已朝前方向運動0度,電子束形態已經過修飾:主葉片在前方向Φ=0左右變最狹窄,更聚焦,而主葉片在後方向180度左右變得相當寬。側面最大衝擊在90和270度,電子束形態變成不對稱,由於此等角度有第2b圖大梯度之加權函數g(Φ)之故。 由於翹曲HOA向量之高階Nout=12,已可進行電子束形態之此等大幅修飾(變窄和再造形)。理論上,主葉片在前方向的解像度已增加2.33倍,而後方向的解像度已減少1/2.33倍。以跨越空間變化的局部位階,產生混合位階訊號。可假設需要最低輸出位階2.33‧Nin 7,以合理的準確性呈現翹曲之HOA係數。在下節如何設定HOA位階中,會更詳細討論內質局部位階。 特性 上面介紹的翹曲步驟相當概論式,很具彈性。至少可完成下述基本操作:沿任意軸線和/或平面轉軸和/或鏡映,具有連續翹曲函數之空間畸變,以及特殊方向之加權(空間電子束形成)。 在下述分節內,強調本發明空間翹曲之許多特性,此等細節可提供導論何者可達成,而何者不能達成。此外,說明某些設計規則。 原則上,下述參數可以若干自由度調節,以獲得所需翹曲特性:‧翹曲函數f(θ,Φ);‧加權函數g(θ,Φ);‧內位階Nwarp;‧輸出位階Nout;‧輸出係數以向量w窗限。 線性 多步驟處理中的基本轉換步驟,按定義具線性。在中間發生聲源非線性映射於新位置,衝擊編碼矩陣之定義,但編碼矩陣本身又是線性。因此,組合空間翹曲操作和以T矩陣乘法,也是線性操作,即:TA1+TA2=T(A1+A2) (29) 11‧‧‧為高階添加零係數之步驟/階段 12‧‧‧位階和維度解碼步驟/階段 13‧‧‧加權步驟/階段 14‧‧‧再度翹曲和編碼步驟/階段 15‧‧‧剔除部份翹曲係數之步驟/階段 16‧‧‧單一矩陣的輸入HOA係數之乘法步驟/階段 第1圖表示在空間界域內之翹曲原理;第2圖表示Nin=3,Nout=12,而翹曲函數f(Φ)=Φ+2 atan(其中α=-0.4)之空間翹曲例;第3圖表示不同的翹曲函數和「內」位階Nwarp之矩陣畸變。 11‧‧‧為高階添加零係數之步驟/階段 12‧‧‧位階和維度解碼步驟/階段 13‧‧‧加權步驟/階段 14‧‧‧再度翹曲和編碼步驟/階段 15‧‧‧剔除部份翹曲係數之步驟/階段 16‧‧‧單一矩陣的輸入HOA係數之乘法步驟/階段
权利要求:
Claims (10) [1] 一種聲訊場景二維或三維高階保真立體音響HOA呈現所含聲音客體相對位置之改變方法,其中維度Oin的輸入向量Ain決定輸入訊號之傅立葉(Fourier)串聯係數,而維度Oout的輸出向量Aout決定相對應改變輸出訊號之傅立葉串聯係數,本方法包含步驟為:使用模態矩陣Ψ1的反逆Ψ1 -1,藉計算sin=Ψ1 -1Ain,把輸入HOA係數的該輸入向量Ain解碼(12),成為正規定位擴音器位置在空間界域內之輸入訊號sin;藉計算Aout=Ψ2 sin,在空間界域內把該輸入訊sin號翹曲和編碼(14)成為所適應輸出HOA係數,其中模態矩陣Ψ2的模態向量係按照翹曲函數f(Φ)修飾,藉此把原有擴音器位置的角度(Φin,θin),逐一映射在該輸出向量Aout內的目標擴音器之目標角度(Φout,θout)者。 [2] 一種聲訊場景二維或三維高階保真立體音響HOA呈現所含聲音客體相對位置之改變裝置,其中維度Oin的輸入向量Ain決定輸入訊號之傅立葉串聯係數,而維度Oout的輸出向量Aout決定相對應改變輸出訊號之傅立葉串聯係數,本裝置包含:機構(12),適於使用模態矩陣Ψ1之反逆Ψ1 -1,藉計算sin=Ψ1 -1Ain,把輸入HOA係數之該輸入向量Ain解碼(12),成為正規定位擴音器位置在空間界域內之輸入訊號sin;機構(14),適於藉計算Aout=Ψ2 sin,在空間界域內把該輸入訊sin號翹曲和編碼成為所適應輸出HOA係數之該輸出向量Aout,其中模態矩陣Ψ2之模態向量係按照翹曲函數f(Φ)修飾,藉此把原有擴音器位置的角度(Φin,θin),逐一映射在該輸出向量Aout內的目標擴音器之目標角度(Φout,θout)者。 [3] 如申請專利範圍第1項之方法,其中該空間界域輸入訊號sin,在該翹曲和編碼(14)之前,以加權函數g(Φ)或g(θ,Φ)加權(13),或如申請專利範圍第2項之裝置,包含機構(13),適於在該翹曲或編碼(14)之前,以加權函數g(Φ)或g(θ,Φ),對該空間界域輸入訊號sin加權者。 [4] 如申請專利範圍第3項之方法或如申請專利範圍第3項之裝置,其中對於二維保真立體音響而言,該加權函數為,而對於三維保真立體音響而言,該加權函數在Φ方向和θ方向為,其中Φ為方位角,θ為傾角,而Φε為小方位角者。 [5] 如申請專利範圍第1,3,4項中一項之方法,其中虛擬擴音器數目或維度Owarp等於或大於HOA係數的數目或維度Oin時,在該項解碼(12)之前,為高階添加(11)零係數,延伸該輸入向量Ain之位階或維度,或如申請專利範圍第2至4項中一項之裝置,包含機構(11),虛擬擴音器的數目或維度Owarp等於或大於HOA係數的數目或維度Oin時,適於在該項解碼(12)之前,為高階添加零係數,延伸該輸入向量Ain之位階或維度者。 [6] 如申請專利範圍第1和3至5項中一項之方法,其中HOA係數的位階或維度低於該模態矩陣Ψ2的位階或維度時,該翹曲和編碼且可能加權(13)過之訊號Ψ2sin,使用包括為高階的零係數之視窗向量w進一步加權(15),供剔除(15)部份翹曲係數,以提供該輸出向量Aout,或如申請專利範圍第2至5項中一項之裝置,包含機構(15),適於使用包括為高階的零係數之視窗向量w,把該翹曲和編碼且可能加權過之訊號Ψ2sin進一步加權,並把翹曲係數部份剔除,以提供該輸出向量Aout者。 [7] 如申請專利範圍第1,3和6項之方法,其中解碼(12),加權(13)和翹曲/解碼(14),是使用大小Owarp×Owarp轉換矩陣T=diag(w)Ψ2 diag(g)Ψ1 -1共同進行,其中diag(w)所指對角線矩陣,係以該視窗向量w之數值為其主對角線之組份,而diag(g)所指對角線矩陣,係以該加權函數g之數值為其主對角線矩陣之組份,或如申請專利範圍第2,3和6項之裝置,包含機構(12,13,14,15)係適於使用大小Owarp×Owarp轉換矩陣T=diag(w)Ψ2 diag(g)Ψ1 -1,共同進行該解碼、加權和翹曲/解碼,其中diag(w)所指對角線矩陣,係以該視窗向量w之數值為其主對角線之組份,而diag(g)所指對角線矩陣,係以該加權函數g之數值為其主對角線矩陣之組份者。 [8] 如申請專利範圍第7項之方法,其中為形成該轉換矩陣T以獲得大小Owarp×Owarp,除去該轉換矩陣T之相對應直行和/或橫列,以進行空間翹曲操作Aout=T Ain,或如申請專利範圍第7項之裝置,其中為形成該轉換矩陣T以獲得大小Owarp×Owarp,該機構(12,13,14,15)適於共同進行該解碼、加權和翹曲/解碼,除去該轉換矩陣T之相對應直行和/或橫列,以進行空間翹曲操作Aout=T Ain者。 [9] 一種數位式聲訊訊號,按照申請專利範圍第1和3至8項之一方式編碼者。 [10] 一種儲存媒體,例如光碟,含有或儲存,或已記錄如申請專利範圍第9項之數位式聲訊訊號者。
类似技术:
公开号 | 公开日 | 专利标题 TWI526088B|2016-03-11|聲訊場景二維或三維高階保真立體音響呈現所含聲音客體相對位置之改變方法和裝置 US10306393B2|2019-05-28|Method and device for rendering an audio soundfield representation JP2020039148A|2020-03-12|オーディオ再生のためのオーディオ音場表現のデコードのための方法および装置 KR102114648B1|2020-05-26|오디오 프로세싱 시스템에서 신호 역상관 GB2478834A|2011-09-21|A method of using a matrix transform to generate a spatial audio signal US10674301B2|2020-06-02|Fast and memory efficient encoding of sound objects using spherical harmonic symmetries US10515645B2|2019-12-24|Method and apparatus for transforming an HOA signal representation EP3583596A1|2019-12-25|Two stage audio focus for spatial audio processing Kearney et al.2015|Height perception in Ambisonic based binaural decoding JP2019047478A|2019-03-22|音響信号処理装置、音響信号処理方法および音響信号処理プログラム WO2020178475A1|2020-09-10|Wind noise reduction in parametric audio US20210390964A1|2021-12-16|Method and apparatus for encoding and decoding an hoa representation Lecomte2016|ambitools Documentation EP3629605B1|2022-03-02|Method and device for rendering an audio soundfield representation McCormack et al.0|Convention e-Brief 111
同族专利:
公开号 | 公开日 KR102012988B1|2019-08-21| DK2727109T3|2020-08-31| JP2014523172A|2014-09-08| TWI526088B|2016-03-11| JP5921678B2|2016-05-24| EP2727109B1|2020-08-05| WO2013000740A1|2013-01-03| EP2727109A1|2014-05-07| US20140133660A1|2014-05-15| KR20140051927A|2014-05-02| BR112013032878A2|2017-01-24| BR112013032878B1|2021-04-13| AU2012278094B2|2017-07-27| AU2012278094A1|2014-01-16| EP2541547A1|2013-01-02| HUE051678T2|2021-03-29| US9338574B2|2016-05-10| CN103635964A|2014-03-12| CN103635964B|2016-05-04|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题 TWI679903B|2013-01-16|2019-12-11|瑞典商杜比國際公司|一種高階保真立體音響格式化3d聲訊響度位準之調節方法及裝置|GB2073556B|1980-02-23|1984-02-22|Nat Res Dev|Sound reproduction systems| WO1998058523A1|1997-06-17|1998-12-23|British Telecommunications Public Limited Company|Reproduction of spatialised audio| JP2001084000A|1999-09-08|2001-03-30|Roland Corp|波形再生装置| JP2005529379A|2001-11-21|2005-09-29|アリフコム|電子的信号からノイズを除去する方法および装置| FR2836571B1|2002-02-28|2004-07-09|Remy Henri Denis Bruno|Procede et dispositif de pilotage d'un ensemble de restitution d'un champ acoustique| FR2847376B1|2002-11-19|2005-02-04|France Telecom|Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede| DE60331367D1|2002-12-30|2010-04-01|Angiotech Int Ag|Wirkstofffreisetzung von schnell gelierender polymerzusammensetzung| CN1226718C|2003-03-04|2005-11-09|无敌科技股份有限公司|语音速度调整方法| GB2410164A|2004-01-16|2005-07-20|Anthony John Andrews|Sound feature positioner| WO2006006809A1|2004-07-09|2006-01-19|Electronics And Telecommunications Research Institute|Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information| WO2008080012A1|2006-12-21|2008-07-03|Cv Therapeutics, Inc.|Reduction of cardiovascular symptoms| EP2112653A4|2007-05-24|2013-09-11|Panasonic Corp|AUDIO DEODICATION DEVICE, AUDIO CODING METHOD, PROGRAM AND INTEGRATED CIRCUIT| GB2467534B|2009-02-04|2014-12-24|Richard Furse|Sound system| JP2010252220A|2009-04-20|2010-11-04|Nippon Hoso Kyokai <Nhk>|3次元音響パンニング装置およびそのプログラム| JP5773540B2|2009-10-07|2015-09-02|ザ・ユニバーシティ・オブ・シドニー|記録された音場の再構築| EP2346028A1|2009-12-17|2011-07-20|Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V.|An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal| BR122020001822B1|2010-03-26|2021-05-04|Dolby International Ab|Método e dispositivo para decodificar uma representação para campo de som de áudio para reprodução de áudio e meio legível por computador|EP2637427A1|2012-03-06|2013-09-11|Thomson Licensing|Method and apparatus for playback of a higher-order ambisonics audio signal| EP2665208A1|2012-05-14|2013-11-20|Thomson Licensing|Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation| US9288603B2|2012-07-15|2016-03-15|Qualcomm Incorporated|Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding| US9473870B2|2012-07-16|2016-10-18|Qualcomm Incorporated|Loudspeaker position compensation with 3D-audio hierarchical coding| US9460729B2|2012-09-21|2016-10-04|Dolby Laboratories Licensing Corporation|Layered approach to spatial audio coding| US9736609B2|2013-02-07|2017-08-15|Qualcomm Incorporated|Determining renderers for spherical harmonic coefficients| US9609452B2|2013-02-08|2017-03-28|Qualcomm Incorporated|Obtaining sparseness information for higher order ambisonic audio renderers| US10178489B2|2013-02-08|2019-01-08|Qualcomm Incorporated|Signaling audio rendering information in a bitstream| US9883310B2|2013-02-08|2018-01-30|Qualcomm Incorporated|Obtaining symmetry information for higher order ambisonic audio renderers| EP2765791A1|2013-02-08|2014-08-13|Thomson Licensing|Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field| US9959875B2|2013-03-01|2018-05-01|Qualcomm Incorporated|Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams| US9716959B2|2013-05-29|2017-07-25|Qualcomm Incorporated|Compensating for error in decomposed representations of sound fields| CN105340008B|2013-05-29|2019-06-14|高通股份有限公司|声场的经分解表示的压缩| US9466305B2|2013-05-29|2016-10-11|Qualcomm Incorporated|Performing positional analysis to code spherical harmonic coefficients| EP2824661A1|2013-07-11|2015-01-14|Thomson Licensing|Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals| WO2015017037A1|2013-07-30|2015-02-05|Dolby International Ab|Panning of audio objects to arbitrary speaker layouts| EP2866475A1|2013-10-23|2015-04-29|Thomson Licensing|Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups| WO2015073454A2|2013-11-14|2015-05-21|Dolby Laboratories Licensing Corporation|Screen-relative rendering of audio and encoding and decoding of audio for such rendering| WO2015104166A1|2014-01-08|2015-07-16|Thomson Licensing|Method and apparatus for improving the coding of side information required for coding a higher order ambisonics representation of a sound field| US9489955B2|2014-01-30|2016-11-08|Qualcomm Incorporated|Indicating frame parameter reusability for coding vectors| US9922656B2|2014-01-30|2018-03-20|Qualcomm Incorporated|Transitioning of ambient higher-order ambisonic coefficients| EP3591649A1|2014-03-21|2020-01-08|Dolby International AB|Method and apparatus for decompressing a compressed hoa signal| CN106105270A|2014-03-25|2016-11-09|英迪股份有限公司|用于处理音频信号的系统和方法| US9620137B2|2014-05-16|2017-04-11|Qualcomm Incorporated|Determining between scalar and vector quantization in higher order ambisonic coefficients| US10770087B2|2014-05-16|2020-09-08|Qualcomm Incorporated|Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals| US9852737B2|2014-05-16|2017-12-26|Qualcomm Incorporated|Coding vectors decomposed from higher-order ambisonics audio signals| US9747910B2|2014-09-26|2017-08-29|Qualcomm Incorporated|Switching between predictive and non-predictive quantization techniques in a higher order ambisonicsframework| US9940937B2|2014-10-10|2018-04-10|Qualcomm Incorporated|Screen related adaptation of HOA content| KR20170088843A|2014-11-28|2017-08-02|소니 주식회사|송신 장치, 송신 방법, 수신 장치 및 수신 방법| WO2016182184A1|2015-05-08|2016-11-17|삼성전자 주식회사|입체 음향 재생 방법 및 장치| US10070094B2|2015-10-14|2018-09-04|Qualcomm Incorporated|Screen related adaptation of higher order ambisoniccontent| WO2017118551A1|2016-01-04|2017-07-13|Harman Becker Automotive Systems Gmbh|Sound wave field generation| EP3209036A1|2016-02-19|2017-08-23|Thomson Licensing|Method, computer readable storage medium, and apparatus for determining a target sound scene at a target position from two or more source sound scenes| US10721578B2|2017-01-06|2020-07-21|Microsoft Technology Licensing, Llc|Spatial audio warp compensator|
法律状态:
优先权:
[返回顶部]
申请号 | 申请日 | 专利标题 EP11305845A|EP2541547A1|2011-06-30|2011-06-30|Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation| 相关专利
Sulfonates, polymers, resist compositions and patterning process
Washing machine
Washing machine
Device for fixture finishing and tension adjusting of membrane
Structure for Equipping Band in a Plane Cathode Ray Tube
Process for preparation of 7 alpha-carboxyl 9, 11-epoxy steroids and intermediates useful therein an
国家/地区
|